ACE-Step 사용 가이드
1. 개요
ACE-Step 1.5는 오픈소스 음악 생성 파운데이션 모델로, 텍스트 설명을 고품질 음악 트랙으로 변환합니다.
- 최대 4분 음악을 20초 내에 생성
- 멜로디, 하모니, 리듬, 악기 편성, 가사(보컬) 모두 제어 가능
- 6가지 핵심 기능: text2music, retake, repaint, edit, extend, audio2audio
2. 프롬프트 작성법
기본 구조
핵심 원칙
- 구체적으로 - "슬픈 노래" 대신 "Sad piano ballad with female breathy vocal"
- 3~7개 태그 - 너무 적으면 모호, 너무 많으면 혼란
- 모순 피하기 - "ambient, metal" 같은 상충 조합 금지
- 감정 일관성 - 가사 감정과 태그 분위기를 일치시키기
- 형용사 활용 - warm, crisp, airy, punchy 등으로 음색 유도
좋은 프롬프트 패턴
재즈 퓨전
재즈와 일렉트로닉이 결합된 인스트루멘탈
Tags
Electronic with jazz influences, 110 BPM, Rhodes piano, warm synth pads, laid-back groove, verse-chorus structure, spacious mix
인스트루멘탈 (보컬 없음)
3. 태그 시스템
장르 태그
- 일렉트로닉: EDM, synthwave, lo-fi, ambient, house, techno, drum and bass
- 록/메탈: rock, indie rock, punk, metal, post-rock, shoegaze
- 팝: pop, K-pop, synth-pop, dream pop, indie pop
- 힙합/R&B: hip hop, trap, R&B, neo-soul, boom bap
- 재즈/블루스: jazz, smooth jazz, blues, bebop, fusion
- 클래식: orchestral, classical, chamber music, cinematic
- 포크: folk, acoustic, country, bluegrass
분위기/감정 태그
| 에너지 높음 | 에너지 중간 | 에너지 낮음 |
|---|---|---|
| energetic, upbeat, aggressive, euphoric | groovy, warm, hopeful, nostalgic | melancholic, dreamy, peaceful, intimate |
악기 태그
- 키보드: piano, Rhodes, organ, synth pads, arpeggiated synth
- 기타: acoustic guitar, electric guitar, fingerpicked guitar
- 베이스: bass guitar, analog bass, sub bass, slap bass
- 드럼: drums, light percussion, 808 drums, brushed drums
- 관현악: strings, brass, orchestral, violin, cello, flute
프로덕션 태그
wide stereo mix, intimate room sound, cinematic reverb, vinyl texture, warm mix, bright chorus, retro mix
4. 가사 작성 팁
속도 규칙
- ACE-Step은 초당 2~3단어 속도로 노래
- 47초 트랙이면 약 90~140단어 목표
- 한 줄에 4~8단어가 최적
구조 태그
작성 원칙
- 짧고 자연스러운 문장 사용
- 복잡한 어휘나 혀 꼬이는 표현 피하기
[instrumental]을 섹션 사이에 넣어 다이나믹 변화 부여- 가사 감정과 태그 분위기를 일치시키기
[instrumental]만 입력하면 보컬 없는 트랙을 생성합니다.
5. 파라미터 설정
Guidance Scale (CFG Scale)
| 값 | 효과 |
|---|---|
| 1~5 | 자연스럽고 창의적이나 프롬프트에서 벗어날 수 있음 |
| 5~9 | 권장 범위 - 균형 잡힌 결과 |
| 10~15 | 프롬프트에 충실하나 거칠거나 왜곡될 수 있음 |
Inference Steps
높을수록 품질 향상, 속도 저하. Turbo 모델: 8, Base 모델: 32~100 권장.
Seed
- 빈 값: 랜덤 시드 (매번 다른 결과)
- 양수 값: 고정 시드 (동일 결과 재현 가능)
6. 워크플로우
6가지 핵심 기능
| 기능 | 설명 | 용도 |
|---|---|---|
| text2music | 텍스트로부터 새 음악 생성 | 처음 시작할 때 |
| retake | 같은 태그/가사로 새로운 편곡 | 다양한 버전 탐색 |
| repaint | 특정 구간만 재생성 | 약한 부분만 수정 |
| edit | FlowEdit으로 의미적 편집 | 스타일/가사 미세 조정 |
| extend | 기존 오디오 길이 연장 | 곡 확장 |
| audio2audio | 기존 오디오를 변환 | 스타일 전환 |
추천 워크플로우
- text2music으로 여러 버전 생성
- 가장 좋은 것 선택
- 약한 섹션 식별
- repaint로 약한 섹션만 개선된 프롬프트로 재생성
- edit로 가사/스타일 미세 조정
- extend로 필요 시 길이 연장
- retake로 최종 버전의 미세 변형 생성
7. LoRA 학습
LoRA(Low-Rank Adaptation)를 통해 전체 모델을 재학습하지 않고도 특정 스타일/목소리/악기를 학습시킬 수 있습니다.
데이터 준비
- 같은 가수/스타일의 음악 수집
- 피처링이 많은 곡은 피하기 (학습 방해)
- 각 오디오에 대해 태그와 가사 파일 준비
LoRA 활용
- 프로젝트별로 LoRA 활성화/비활성화 가능
- LoRA Weight를 조절하여 스타일 강도 제어
- 음수 Weight는 해당 스타일 회피 효과
8. 트러블슈팅
흔한 문제와 해결책
| 문제 | 원인 | 해결 |
|---|---|---|
| 보컬이 악기를 덮음 | 악기 태그 부족 | "rich instrumentation" 추가, 구체적 악기 나열 |
| 인스트루멘탈인데 보컬 나옴 | 가사 필드에 다른 내용 | 가사에 [instrumental]만 입력 |
| 가사가 빠르게 뭉개짐 | 가사 너무 많음 | 47초 기준 140단어 이하로 줄이기 |
| 왜곡된/깨진 오디오 | CFG 너무 높거나 LoRA 문제 | CFG 5~9로 조정 |
| 결과물 일관성 없음 | 모델 특성 | batch로 여러 샘플 생성 후 선택 |
최적화 팁
- 시드 고정 후 한 번에 하나의 파라미터만 변경해 비교
- 처음에는 짧은 캡션으로 시작 후 부족한 부분에 디테일 추가
- Turbo 모델로 빠르게 아이디어 탐색 후 Base 모델로 최종 품질 확보
- 좋은 시드/결과 저장하여 나중에 재현
9. 프롬프트 예시 모음
아래 예시 프롬프트를 바로 사용하거나 참고하여 자신만의 프롬프트를 작성해보세요.
시네마틱 앰비언트
영화 같은 분위기의 드론 앰비언트
Tags
Cinematic ambient, 72 BPM, soft synth pads, distant piano, evolving drones, slow build, wide stereo mix, no vocals
인스트루멘탈 (보컬 없음)
로파이 힙합
편안한 공부/작업용 로파이 비트
Tags
Lo-fi hip hop, 88 BPM, vinyl texture, mellow Rhodes, laid-back drums, short intro, 16-bar loop, warm mix
인스트루멘탈 (보컬 없음)
신스웨이브
80년대 레트로 감성의 신스웨이브
Tags
Synthwave, 100 BPM, analog bass, arpeggiated leads, gated drums, bright chorus, retro mix, minimal distortion
인스트루멘탈 (보컬 없음)
어쿠스틱 포크
따뜻한 어쿠스틱 기타 포크 인스트루멘탈
Tags
Acoustic folk, 96 BPM, fingerpicked guitar, light percussion, intimate room sound, verse-chorus structure, no vocals
인스트루멘탈 (보컬 없음)
트레일러 스코어
영화 트레일러 스타일의 에픽 스코어
Tags
Trailer score, 120 BPM, low brass hits, pulsing strings, build to climax, dramatic risers, cinematic reverb
인스트루멘탈 (보컬 없음)
감성 발라드
감성적인 피아노 발라드 (보컬 포함)
Tags
Sad piano ballad, 68 BPM, female breathy vocal, soft strings, intimate, emotional, verse-chorus-bridge structure
Lyrics
[verse] Standing in the rain alone tonight Watching all the lights fade away Every word we said still echoes here In this empty space where you used to stay [chorus] I remember how it felt to fall Into your arms like coming home Now the silence fills these hollow walls And I'm learning how to be alone [bridge] Maybe someday I will understand Why the best things slip right through our hands [outro] Standing in the rain alone tonight
K-Pop 스타일
에너지 넘치는 K-Pop 댄스 트랙
Tags
K-pop, 128 BPM, synth-heavy, punchy drums, catchy hook, bright production, male vocal, energetic, dance-pop
Lyrics
[verse] Breaking through the night we shine so bright Every beat drops harder feel the light Moving to the rhythm can't stop now Show the world exactly how [chorus] We go up up never coming down Turn it up up shake the whole town Feel the bass drop through the floor Give me more more more [instrumental] [verse] Electric vibes running through my veins Nothing gonna stop us from the game
10. 참고 자료
공식 문서
빠른 시작 체크리스트
- 장르 + 분위기 + 템포 + 악기로 태그 구성 (3~7개)
- 가사는 초당 2~3단어 속도 고려해서 작성
- 감정 태그와 가사 분위기 일치시키기
- 시드 고정하고 파라미터 하나씩 조정해 비교
- Repaint로 약한 부분만 수정
- 모순되는 태그 조합 피하기